python爬虫自学宝典

您所在的位置：网站首页 › spyder运行代码报错 non-ascii › python爬虫自学宝典

python爬虫自学宝典

2024-07-14 02:13| 来源: 网络整理| 查看: 265

前文回顾经过前面的讲解，我们已经写了一个小程序，用来爬取我的博客主页的博客信息。但是我们还没有将这个程序运行，什么意思呢？就是光说不练，假把式；光练不说，傻把式。运行虫子，很简单。首先，用dos定位到你的项目目录中，然后在命令行中输入：

scrapy crawl demo_spider

demo_spider是我的虫子名，正确的命令格式——scrapy crawl spider_name是运行虫子的命令，运行上面命令，可以看到我们所做的工作结果如下：

在这里插入图片描述记住，定位只需要定位到项目目录下，而不是spider目录下。虽然运行用的是spider虫子名，但是框架会自动配置检索运行，不必劳烦我们操心。

细心的朋友可以发现如下问题，为什么我的博客文章那么多，只能爬取一页呢？是不是虫子太笨了，其实不然，是我们没设置好。那么如何爬取下一页的信息呢？须知一般用虫子爬信息，大多都是以万起步的。那么大的数据量，一个页面肯定放不下，只能下一页，next，下一页了。下一章，讲如何爬取下一页information。

欲知后事如何，且听下回分解。

【本文地址】

python爬虫自学宝典

python爬虫自学宝典

今日新闻

推荐新闻